tg-me.com/machinelearning_interview/1517
Last Update:
Методы, предложенные Microsoft - это: компилятор типов данных Ladder, библиотека T-MAC mpGEMM и аппаратная архитектура LUT Tensor Core.
Ladder преобразует неподдерживаемые форматы данных в аппаратно-совместимые представления, библиотека T-MAC mpGEMM оптимизирует вычисления смешанной точности, используя метод на основе таблицы поиска (LUT), а архитектура LUT Tensor Core представляет собой специализированный ускоритель, предназначенный для низкобитного квантования.
Их совокупность позволяет LLM эффективно работать на широком спектре оборудования, от ноутбуков до маломощных IoT-устройств. В тестах библиотека T-MAC достигла 48 токенов в секунду для модели 3B BitNet-b1.58 на Surface Laptop 7 и 11 токенов в секунду на Raspberry Pi 5.
@machinelearning_interview